Understanding Catastrophic Forgetting in Language Models via Implicit Inference

effects of fine-tuning (via methods such as instruction-tuning or reinforcement learning from human feedback)